从检测到通用感知:构建空间智能的基础
视觉感知是机器和物理世界交互的基础,也是 AI 走向通用必须具备的能力。本文整理自 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊 6 月 在 AICon 2025 北京 的分享《从检测到通用感知:构建空间智能的基础》。
智能 transformer 通用 掩码 dino 2025-11-18 14:33 2
视觉感知是机器和物理世界交互的基础,也是 AI 走向通用必须具备的能力。本文整理自 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊 6 月 在 AICon 2025 北京 的分享《从检测到通用感知:构建空间智能的基础》。
智能 transformer 通用 掩码 dino 2025-11-18 14:33 2
离职meta后,田渊栋团队最新论文放出了。他们提出的「三门理论」发现,RLVR微调只在小权重里发力,性能提升的同时又不破坏模型结构。
计算机视觉(CV)技术,广泛应用于自动驾驶汽车、消费电子设备等众多领域。其中,图像数据集扮演着基础性的角色,ImageNet 等大型图像数据集的出现,使计算机视觉领域实现了革命性突破。
传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言模型(VLM)“锁死” ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性
模型 ntu transformer qa 掩码 2025-10-31 16:26 2
阿里达摩院、湖畔实验室跟浙江大学一起,搞出了个叫WorldVLA的东西。这玩意儿不是简单的AI模型升级,而是想让AI真正“理解”世界,之前AI能看东西、能做动作,现在终于能搞懂动作和环境的关系了。
格式混乱:即使在相同的提示下,不同样本的输出格式也常常不一致,从而增加了解析和结构化输出的难度;语义断裂:坐标是数值,与图像块之间缺乏直接语义关联,模态错位;幻觉频发:模型容易生成“图中没有的框”或重复预测同一物体。
Transformer 作为当前自然语言处理(NLP)、计算机视觉(CV)等领域的核心架构,其设计围绕自注意力机制展开,通过并行化计算大幅提升了模型效率与性能。本文将以 PyTorch 实现逻辑和原始论文(《Attention Is All You Need》
transformer encoder 掩码 残差 数学模型 2025-10-28 06:53 2
之前聊过 “多头注意力” 像 AI 的 “多组放大镜”,能同时盯紧屯子里事的多个重点;也聊过 “掩码” 像 “文字遮挡板”,防止 AI 生成内容时 “偷看” 后文。而 “掩码多头自注意力”,就是给这组 “放大镜” 加了 “遮挡板”—— 让 AI 既能多维度看全
在数字经济全面提速的当下,数据已成为关键生产要素。但数据价值的大规模释放,也带来了前所未有的安全挑战。正如在国家层面提出的:“加强数据安全技术应用和产业培育,引导企业根据不同安全等级的数据,采取不同的安全技术进行流通,持续提升安全可信流通、风险监测预警能力。”
近期,上海AI实验室联合悉尼大学、香港中文大学和香港大学的研究团队发表了一项重要研究成果,题为《Understand Before You Generate: Self-Guided Training for Autoregressive Image Gene
作者:Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda
通用 sam neurips 掩码 openworldsam 2025-09-24 18:45 4
掩码注意力(Causal Attention)是生成式模型的核心技术,它传统自注意力机制有根本的不同,掩码注意力限制模型只能关注当前位置之前的tokens,确保了自回归生成的因果性。
transformer 掩码 掩码注意力 pytorch完整 2025-09-25 19:52 6
Salesforce执行副总裁兼首席科学家Silvio Savarese在接受Computer Weekly采访时表示,AI对企业的真正价值不在于底层模型,而在于构建在其之上的智能体能力。
模型 智能体 salesforce lam 掩码 2025-09-25 14:41 5
注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:"谁跟我最像?",softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权
视角 算法 transformer 掩码 axis 2025-09-24 20:22 6
这项由ByteDance(字节跳动)的赖昕和香港大学的赵恒爽领导的研究发表于2025年9月,论文全名为《Mini-o3: Scaling Up Reasoning Patterns and InteraCTion Turns for Visual Search
ZipCracker是一款由Hx0战队开发的高性能多并发破解工具,专为破解密码保护的Zip文件而设计。它采用CRC32碰撞、字典攻击及掩码攻击等方式猜测Zip文件的明文或密码,并能成功提取其中的内容。这款工具具备识别"伪加密"Zip文件的能力,并能自动进行修复
zip 掩码 压缩包 zipcracker crc32 2025-09-15 15:36 5
多模态大语言模型(MLLM)在理解和生成语言方面的能力令人惊叹,但在处理需要精确空间定位的视觉任务(如图像分割)时,往往显得力不从心。现有方法通常需要引入额外的分割解码器或复杂的坐标生成机制,增加了模型的复杂性和计算开销。来自南洋理工大学、武汉大学和字节跳动的